Appendice
 

La metodologia Fellegi-Holt

Tre sono i criteri fondamentali per l'imputazione delle variabili qualitative alla base della metodologia proposta da Fellegi e Holt:
(quanto segue è una sintesi dell'articolo "A Systematic Approach to Automatic Edit and Imputation" di I.Fellegi e D.Holt pubblicato sul Journal of the American Statistical Association - marzo 1976)

1. in ogni record i dati devono soddisfare tutte le regole di validità e incompatibilità, cambiando il meno possibile il valore dei campi;
2. le regole di imputazione devono essere derivate dalle regole di controllo, senza esplicita specificazione;
3. le distribuzioni di frequenza marginali e congiunte devono essere mantenute il più possibile.

Edit in forma normale

Distinguiamo gli edit logici, riguardanti le variabili qualitative, dagli edit aritmetici, riguardanti le variabili quantitative.
DEFINIZIONE: un edit logico esprime una condizione di inaccettabilità su una data combinazione di valori di due o più variabili
Un edit può essere formalizzato come l'applicazione di una funzione f a sottoinsiemi dei domini di n variabili:

dove:

: sottoinsieme del dominio della variabile i-esima
f : funzione logica che connette i vari  mediante gli operatori logici di intersezione (Ç ) e unione (È )
Un record a è errato se:

a Î

Applicando ripetutamente alla f la legge distributiva otteniamo:

=
( ÇÇ ... Ç ) È (ÇÇ ... Ç ) È ... È ( ÇÇ ... Ç )

Possiamo dire che un record è errato se appartiene ad almeno uno dei termini a secondo membro. Definiamo come "edit in forma normale" ognuno di tali termini.

DEFINIZIONE: un edit in forma normale è un edit logico in cui l'unico operatore ammesso è quello di intersezione

In simboli:

Ogni edit logico, di qualsiasi forma, può sempre essere tradotto in una serie di edit in forma normale. Consideriamo, ad esempio, la seguente regola (di compatibilità):
"Se una persona ha età inferiore a 16 anni, oppure frequenta una scuola elementare, allora non può essere capo-famiglia, ed il suo stato civile deve essere celibe o nubile"
Questa regola può essere convertita in una serie di edit in forma normale attraverso i seguenti passi:

1. formalizzazione:

[ (Età < 16) È (Scuola Elementare)]®[ (Ø Capo-famiglia) Ç (Celibe/Nubile) ]

2. traduzione in regola di incompatibilità:

[ (Età < 16) È (Scuola Elementare)]ÇØ[ (Ø Capo-famiglia) Ç (Celibe/Nubile) ] = errore

3. semplificazione:

[ (Età < 16) È (Scuola Elementare)]Ç[ (Capo-famiglia) È (Ø Celibe/Nubile) ] = errore

4. applicazione della legge distributiva:

[ (Età < 16) Ç (Capo-famiglia)
[ (Età < 16) Ç (Ø Celibe/Nubile)] È
[ (Scuola Elementare) Ç (Capo-famiglia)] È
[ (Scuola Elementare) Ç (Ø Celibe/Nubile)] = errore

I quattro termini nell'ultima espressione sono altrettanti edit in forma normale.

L'insieme completo degli edit

DEFINIZIONE: gli edit in forma normale specificati direttamente dallo statistico sono detti edit espliciti.

Un record che non attiva alcun edit esplicito si dice corretto, e non necessita di alcuna modifica. Al contrario, un record che attiva almeno un edit esplicito si dice errato, e necessita della modifica di almeno una variabile.
Mentre gli edit espliciti sono necessari e sufficienti per determinare la correttezza di un record, essi non sono sufficienti per una sua ottimale correzione.

DEFINIZIONE: chiamiamo edit implicito un edit logicamente contenuto negli edit espliciti.

La funzione degli edit impliciti, considerati congiuntamente con gli edit espliciti, è quella di permettere la correzione ottimale di un record errato.

DEFINIZIONE: l'insieme completo degli edit è dato dall'unione degli edit espliciti e di quelli impliciti.

Per eseguire in modo ottimale il passo di scelta delle variabili da imputare, e di determinazione del range di valori imputabili, è necessario preventivamente generare l'insieme completo di edit.

Consideriamo il seguente esempio.
Supponiamo che un record contenga tre variabili, di cui siano definiti i seguenti domini:
 
VARIABILI DOMINI
ETA' 0-14, 15-99
STATO CIVILE (STACIV) celibe, coniugato, separato,divorziato,vedovo
RELAZIONE COL CAPO FAMIGLIA (RELCF) capofamiglia, coniuge, altro

Siano stati definiti i seguenti edit in forma normale espliciti, esprimenti condizioni di incompatibilità:

I. (ETA' = 0-14) Ç (STACIV = coniugato, separato,divorziato,vedovo)
II. (STACIV = celibe, separato, divorziato, vedovo) Ç (RELCF = coniuge)

Possiamo riscriverli come condizioni di compatibilità nel seguente modo:

(ETA' = 0-14) ® (STACIV = celibe)
(STACIV = celibe, separato, divorziato, vedovo) ® (RELCF ¹ coniuge)

Poiché la conseguenza della prima implicazione è contenuta nella premessa della seconda, possiamo derivare che:

(ETA' = 0-14) ® (RELCF ¹ coniuge)

relazione che, opportunamente ritradotta in forma normale, diventa:

III. (ETA' = 0-14) Ç (RELCF = coniuge)

Questo terzo edit era implicitamente contenuto nei primi due.

Supponiamo ora di considerare il seguente record:

(ETA' = 0-14) Ç (STACIV = coniugato) Ç (RELCF = coniuge)

Questo record attiva gli edit I e III.

Per correggere il record, ricerchiamo l'insieme minimo di variabili che copra tutti gli edit attivati (espliciti e impliciti) dal record in questione. Nel nostro caso verifichiamo che la variabile ETA' è presente sia nel primo che nel terzo edit attivato. Per disattivare tali edit è sufficiente assegnare a ETA' un valore interno all'intersezione dei complementi dei valori che compaiono negli edit attivati o attivabili:

(Ø 0-14) Ç (Ø 0-14) = 15-99

Assegnando il valore 15-99 alla variabile ETA', il record può dirsi corretto, in quanto non attiva alcun edit: nel far ciò abbiamo tenuto conto del principio del minimo cambiamento, in quanto abbiamo modificato una sola variabile.

Se in questo processo di ricerca dell'insieme minimale di variabili da imputare non avessimo tenuto conto dell'edit implicito, avremmo considerato il solo edit I: per disattivarlo, avremmo potuto scegliere di imputare sia ETA' che STACIV. Se avessimo scelto STACIV, che compare anche nell'edit II, avremmo constatato che l'intersezione del complemento dei relativi valori è l'insieme vuoto Æ :

Ø (coniugato, separato, divorziato, vedovo) Ç Ø (celibe, separato, divorziato, vedovo) =
= celibe Ç coniugato = Æ

L'impossibilità di trovare dei valori imputabili a STACIV tali da correggere il record deriva dal fatto che STACIV non è contenuto nell'edit III, implicito, attivato dai valori delle variabili ETA' e RELCF. La conseguenza di carattere generale è che la non considerazione degli edit impliciti non permette di definire sempre insiemi minimi di variabili da imputare che siano in grado di riportare il record in una situazione di correttezza.

LEMMA: dati s edit  e n variabili, per ogni arbitraria variabile i, un edit  si dice generato dagli s edit se e solo se

In altri termini, fissata una variabile i (detta generante), il corrispondente  sarà ottenuto come unione degli , mentre ogni altro  sarà ottenuto come intersezione degli.

DEFINIZIONE: Un edit generato si dice edit implicito essenzialmente nuovo se e solo se:

1.  coincide col dominio della variabile i;
2. ogni  è non vuoto ed è un sottoinsieme proprio del dominio della variabile i;

Consideriamo il seguente esempio. Siano dati gli edit:

I. (ETA' = 0-14) Ç (RELCF = qualsiasi) Ç (STACIV ¹ celibe)
II. (ETA'=qualsiasi) Ç (RELCF = coniuge) Ç (STACIV = celibe, separato, divorziato, vedovo)

Se fissiamo ETA' come variabile generante otteniamo:

(ETA'=qualsiasi) Ç (RELCF = coniuge) Ç (STACIV = separato, divorziato, vedovo)

che è ridondante rispetto al secondo edit.

Fissando invece RELCF otteniamo:

(ETA'=0-14) Ç (RELCF = qualsiasi) Ç (STACIV = separato, divorziato, vedovo)

che è ridondante rispetto al primo edit.

Infine, scegliendo STACIV come variabile generante:

(ETA'=0-14) Ç (RELCF = coniuge) Ç (STACIV = qualsiasi)

che è un edit implicito essenzialmente nuovo.

DEFINIZIONE : Un edit generato da due o più edit tra loro contraddittori (inconsistenti) è detto edit degenere

Consideriamo il seguente esempio:

I. (ETA' = 0-14) Ç (STACIV ¹ celibe)
II. (ETA' = 15-99) Ç (STACIV ¹ celibe)

Assumendo ETA' come campo generante, otteniamo l'edit esplicito

III. (ETA' = qualsiasi valore) Ç (STACIV ¹ celibe) = (STACIV ¹ celibe)

che ci dice che sono errati tutti i valori di STACIV diversi da celibe, il che chiaramente contraddice la definizione del dominio della variabile STACIV. L'edit III è un edit degenere, ed in quanto tale può essere generato solo da edit tra loro contraddittori.

I seguenti teoremi e corollari assicurano che, avendo a disposizione l'insieme completo di edit, un qualsiasi record errato è sempre correggibile, e lo è in modo ottimale.
Sia W l'insieme completo di edit, e sia un sottoinsieme tale da coinvolgere le prime k variabili (con l'esclusione, quindi, di tutti gli edit in cui compaiano le variabili k+1, k+2, ... , n).

TEOREMA 1se gli  sono possibili valori per le prime k-1 variabili, e se questi valori soddisfano tutti gli edit in , allora esiste un qualche valore  tale da soddisfare tutti gli edit in .
La ripetuta applicazione del teorema 1 permette di conseguire il seguente

COROLLARIO 1: se un record ha n variabili, di cui le prime k-1 hanno valori  (i=1,2,...,k-1) tali che tutti gli edit in  sono soddisfatti, allora esistono valori  (i=k,k+1,...,n) tali da soddisfare tutti gli edit in W .

Ed inoltre:

COROLLARIO 2: se un record ha n variabili, di cui un sottoinsieme s ha la proprietà che almeno uno dei valori  (iÎ s) compare in ogni edit attivato dal record, allora esistono dei valori  (iÎ s) tali che, assieme agli (iÏ s) fanno si che il record soddisfi tutti gli edit.

Metodi di imputazione

La metodologia prevede, per ogni record errato:

1. l'identificazione dell'insieme minimo di variabili da modificare;
2. per ogni variabile rientrante nell'insieme minimo, la determinazione dell'insieme di valori attribuibili, e imputazione di uno tra questi.

Per quanto riguarda il punto 1, ricordiamo che l'insieme minimo di variabili da imputare è costituito da quell'insieme di variabili che "coprono" tutti gli edit attivati dal record e che risulta essere di dimensione minima.

Per quanto concerne il punto 2, sono proposti due metodi, entrambi di tipo hot deck, consistenti nell'imputare in una variabile del record corrente (ricevente) il valore della stessa variabile in un record (donatore) scelto tra quelli esatti. I metodi in questione sono:

· metodo dell'imputazione sequenziale;
· metodo dell'imputazione congiunta.

METODO 1: IMPUTAZIONE SEQUENZIALE

Consideriamo un record errato di cui sia già stato identificato un insieme minimo di k variabili da imputare. Il metodo consiste nell'imputare dapprima la k-esima variabile, e poi, sequenzialmente, le variabili k-1,k-2,...,1.

Consideriamo tutti gli M edit in cui

· è presente la variabile k;
· non sono presenti le variabili 1,2,...,k-1.

Tra questi, consideriamo solo gli M' edit in cui non sono presenti gli edit sicuramente disattivati dai valori correnti delle variabili k+1, k+2, ... , n: gli M' edit sono quelli che possono essere attivati o meno in funzione dei valori della sola variabile k. Se vogliamo che il record soddisfi tali edit, il valore da assegnare alla variabile k deve soddisfare la condizione:

cioè deve appartenere all'insieme intersezione dei complementi dei valori indicati per la variabile k in tutti gli M' edit: tale insieme non è mai vuoto per il teorema 1.

Lo stesso procedimento viene iterato per le variabili k-1, k-2, ...1, fino all'esaurimento dell'insieme minimo di variabili da imputare.

Consideriamo il seguente esempio, con 5 variabili:
 
VARIABILI DOMINI
SESSO maschio, femmina
ETA 0-14,15-16,17-99
STATO CIVILE (STACIV) celibe, coniugato, separato, divorziato, vedovo
RELAZIONE COL CAPOFAMIGLIA (RELCF) moglie, marito, figlio, altro
LIVELLO D'ISTRUZIONE (ISTRUZ) nessuno,elementare, secondario, post-secondario

L'insieme (completo) degli edit è il seguente:

: (SESSO=maschio) Ç (RELCF=moglie)
: (ETA'=0-14) Ç (STACIV¹ celibe)
: (STACIV¹ coniugato) Ç (RELCF=moglie,marito)
: (ETA'=0-14) Ç (RELCF=moglie,marito)
: (ETA'=0-16) Ç (ISTRUZ=post-secondaria)

Sia dato il seguente record:
 
VARIABILE VALORE
SESSO maschio
ETA 12
STACIV coniugato
RELCF moglie
ISTRUZ elementare

Il record attiva gli edit. Nessuna singola variabile "copre" i tre edit. Tre coppie di variabili coprono gli edit attivati: (SESSO, ETA'), (ETA', RELCF) e (STACIV, RELCF). Supponiamo di scegliere la coppia (SESSO, ETA'): la dimensione s dell'insieme è pari a 2.

Sia ETA' la variabile k-esima (k=2). Consideriamo tutti gli edit che contengono ETA' ma non SESSO (la variabile k-1=1):

: (ETA'=0-14) Ç (STACIV¹ celibe)
: (ETA'=0-14) Ç (RELCF=moglie,marito)
(ETA'=0-16) Ç (ISTRUZ=post-secondaria)

L'edit è sempre soddisfatto per qualsiasi valore di ETA' dal momento che nel record il valore di ISTRUZ è "elementare". Per calcolare i valori imputabili ad ETA' dobbiamo quindi considerare solo :

ÎÇºÇ = (15-99)

cercheremo quindi un record donatore con un valore di ETA' compreso tra 15 e 99: supponiamo 22.

Passiamo ora variabile SESSO (k-1=1). Solo l'edit la contiene, quindi:

κ = femmina

Essendo unico, il valore "femmina" è direttamente imputato alla variabile SESSO. Il record corretto sarà quindi il seguente:
 
VARIABILE VALORE
SESSO femmina
ETA 22
STACIV coniugato
RELCF moglie
ISTRUZ elementare

 

METODO 2: IMPUTAZIONE CONGIUNTA

Per un dato record errato siano state definite le k variabili da imputare. Si considerino gli M'' edit con le k variabili

(r=1,2,...,M'')

dove  (i=k+1,k+2,...,n). Sono gli edit in cui sono presenti le k variabili, e dove le variabili k+1, k+2, ..., n hanno nel record valori interni agli : sono cioè gli edit attivabili o meno in funzione dei valori che si danno alle k variabili.

Si considerino gli insiemi

(i=k+1, k+2, ... ,n)

Se scegliamo un qualsiasi record, tra quelli esatti, i cui valori delle variabili k+1, k+2, ... ,n siano interni agli insiemi così definiti, i valori di tale record nelle variabili 1,2,...,k sono attribuibili in blocco al record errato corrente, in quanto costituiscono una combinazione che sicuramente garantisce che tutti gli M'' edit siano soddisfatti (cioè disattivati). Per tale motivo non c'è alcun bisogno di calcolare l'insieme dei valori attribuibili alle k variabili dell'insieme minimo.

Riprendiamo in considerazione l'esempio visto per l'imputazione sequenziale: siano ancora SESSO ed ETA' le variabili dell'insieme minimo: queste due variabili sono presenti negli edit ed . Quest'ultimo è soddisfatto comunque per il valore di ISTRUZ. Restano:

: (SESSO=maschio) Ç (RELCF=moglie)
: (ETA'=0-14) Ç (STACIV¹ celibe)
: (ETA'=0-14) Ç (RELCF=moglie,marito)

E' questo l'insieme M'' di edit. Si determinano gli insiemi di valori per le variabili k+1, k+2, ..., n, cioè per STACIV (3), RELCF (4) e ISTRUZ (5):

= coniugato, separato, divorziato, vedovo
= moglie Ç (moglie, marito) = moglie
= qualsiasi valore

A questo punto, tra i record esatti viene ricercato un donatore che abbia i valori di STACIV e RELCF interni agli insiemi così determinati, ed i relativi valori di SESSO ed ETA' vengono attribuiti al record errato corrente.